智能论文笔记

Machine Learning Subsystem for Autonomous Collision Avoidance on a small UAS with Embedded GPU

Nicholas Polosky , Tyler Gwin , Sean Furman , Parth Barhanpurkar , Jithin Jagannath

分类：机器人 | 机器学习

2021-12-03

对无人机系统（UAS）6G通信网络的供电解决方案的发动机解决方案非常广泛地增长了基于机器学习的自主模块和嵌入式图形处理单元（GPU）的广泛可用性。虽然这些技术已经彻底改变了UAS解决方案的可能性，但为UAS设计可操作，稳健的自主框架仍然是一个多方面和难题。在这项工作中，我们向US-IFLY提供了我们的小说，模块化框架，题为MR-IFLY，并讨论如何扩展它以启用6G Swarm解决方案。我们首先详细说明基于机器学习的UAS自主权与资源受限设备相关的挑战。接下来，我们深入描述，MR-IFLY的新颖深度估计和碰撞避免技术如何满足这些挑战。最后，我们描述了我们用来测量性能的各种评估标准，展示我们的优化机器视觉组件如何提供最多15倍的基线模型，并呈现MR-Ifly基于视觉碰撞避免技术的飞行演示视频。我们认为，这些经验结果通过提供独立的碰撞避免和导航能力来减少6G通信群中的节点之间的通信开销的候选者。

translated by 谷歌翻译

Motion Style Transfer: Modular Low-Rank Adaptation for Deep Motion Forecasting

Parth Kothari , Danya Li , Yuejiang Liu , Alexandre Alahi

分类：计算机视觉 | 机器人

2022-11-06

Deep motion forecasting models have achieved great success when trained on a massive amount of data. Yet, they often perform poorly when training data is limited. To address this challenge, we propose a transfer learning approach for efficiently adapting pre-trained forecasting models to new domains, such as unseen agent types and scene contexts. Unlike the conventional fine-tuning approach that updates the whole encoder, our main idea is to reduce the amount of tunable parameters that can precisely account for the target domain-specific motion style. To this end, we introduce two components that exploit our prior knowledge of motion style shifts: (i) a low-rank motion style adapter that projects and adjusts the style features at a low-dimensional bottleneck; and (ii) a modular adapter strategy that disentangles the features of scene context and motion history to facilitate a fine-grained choice of adaptation layers. Through extensive experimentation, we show that our proposed adapter design, coined MoSA, outperforms prior methods on several forecasting benchmarks.

translated by 谷歌翻译

Safety-compliant Generative Adversarial Networks for Human Trajectory Forecasting

Parth Kothari , Alexandre Alahi

分类：计算机视觉

2022-09-25

人群中的人类轨迹预测提出了建模社交相互作用和输出无碰撞多模式分布的挑战。在社会生成对抗网络（SGAN）成功之后，最近的作品提出了各种基于GAN的设计，以更好地模拟人群中的人类运动。尽管在降低基于距离的指标方面的性能卓越，但当前网络仍无法输出社会可接受的轨迹，这是模型预测中的高碰撞所证明的。为此，我们介绍了SGANV2：改进的符合安全性的SGAN架构，配备了时空交互模型和基于变压器的鉴别器。时空建模能力有助于更好地学习人类的社交互动，而基于变压器的歧视器设计改善了时间序列建模。此外，SGANV2即使在测试时间也通过协作抽样策略来利用学到的歧视者，该策略不仅完善了碰撞轨迹，而且还可以防止模式崩溃，这是GAN训练中的常见现象。通过对多个现实世界和合成数据集进行广泛的实验，我们证明了SGANV2提供社会兼容的多模式轨迹的功效。

translated by 谷歌翻译

Deep Learning Driven Natural Languages Text to SQL Query Conversion: A Survey

Ayush Kumar , Parth Nagarkar , Prabhav Nalhe , Sanjeev Vijayakumar

分类：自然语言处理 | 人工智能

2022-08-08

随着未来以数据为中心的决策，对数据库的无缝访问至关重要。关于创建有效的文本到SQL（Text2SQL）模型以访问数据库的数据有广泛的研究。使用自然语言是可以通过有效访问数据库（尤其是对于非技术用户）来弥合数据和结果之间差距的最佳接口之一。它将打开门，并在精通技术技能或不太熟练的查询语言的用户中引起极大的兴趣。即使提出或研究了许多基于深度学习的算法，在现实工作场景中使用自然语言来解决数据查询问题仍然非常具有挑战性。原因是在不同的研究中使用不同的数据集，这带来了其局限性和假设。同时，我们确实缺乏对这些提议的模型及其对其训练的特定数据集的局限性的彻底理解。在本文中，我们试图介绍过去几年研究的24种神经网络模型的整体概述，包括其涉及卷积神经网络，经常性神经网络，指针网络，强化学习，生成模型等的架构。我们还概述11个数据集，这些数据集被广泛用于训练Text2SQL技术的模型。我们还讨论了无缝数据查询中文本2SQL技术的未来应用可能性。

translated by 谷歌翻译

Studying writer-suggestion interaction: A qualitative study to understand writer interaction with aligned/misaligned next-phrase suggestion

Advait Bhat , Saaket Agashe , Niharika Mohile , Parth Oberoi , Ravi Jangir , Anirudha Joshi

分类：人工智能

2022-08-01

我们提出了一项探索性定性研究，以了解作家如何与下一页建议相互作用。尽管对建议系统对写作的影响进行了一些定量研究，但几乎没有定性的工作来理解作家如何与建议系统互动及其如何影响他们的写作过程 - 特别是针对非本地但英国作家的。我们进行了一项研究，要求业余作家分别写两部电影评论，一本没有建议。我们发现作家以各种复杂的方式与下一页建议互动 - 作家能够抽象建议的多个部分并将其纳入他们的写作中 - 即使他们不同意整个建议。建议系统对写作过程也有各种影响 - 以独特的方式为写作过程的不同方面做出了影响。我们提出了一种用于与GPT-2写作的作家 - 探索互动模型，用于电影评论写作任务，然后是该模型可用于未来研究的方式，并概述了研究和设计的机会。

translated by 谷歌翻译

Adaptive Fine-Grained Sketch-Based Image Retrieval

Ayan Kumar Bhunia , Aneeshan Sain , Parth Shah , Animesh Gupta , Pinaki Nath Chowdhury , Tao Xiang , Yi-Zhe Song

分类：计算机视觉

2022-07-04

最近对基于细粒的基于草图的图像检索（FG-SBIR）的重点已转向将模型概括为新类别，而没有任何培训数据。但是，在现实世界中，经过训练的FG-SBIR模型通常应用于新类别和不同的人类素描器，即不同的绘图样式。尽管这使概括问题复杂化，但幸运的是，通常可以使用一些示例，从而使模型适应新的类别/样式。在本文中，我们提供了一种新颖的视角 - 我们没有要求使用概括的模型，而是提倡快速适应的模型，在测试过程中只有很少的样本（以几种方式）。为了解决这个新问题，我们介绍了一种基于几个关键修改的基于新型的模型 - 静态元学习（MAML）框架：（1）作为基于边缘的对比度损失的检索任务，我们简化了内部循环中的MAML训练使其更稳定和易于处理。（2）我们的对比度损失的边距也通过其余模型进行了元学习。（3）在外循环中引入了另外三个正规化损失，以使元学习的FG-SBIR模型对类别/样式适应更有效。在公共数据集上进行的广泛实验表明，基于概括和基于零射的方法的增益很大，还有一些强大的射击基线。

translated by 谷歌翻译

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava , Abhinav Rastogi , Abhishek Rao , Abu Awal Md Shoeb , Abubakar Abid , Adam Fisch , Adam R. Brown , Adam Santoro , Aditya Gupta , Adrià Garriga-Alonso

分类：自然语言处理 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-09

语言模型既展示了定量的改进，又展示了新的定性功能，随着规模的增加。尽管它们具有潜在的变革性影响，但这些新能力的特征却很差。为了为未来的研究提供信息，为破坏性的新模型能力做准备，并改善社会有害的效果，至关重要的是，我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战，我们介绍了超越模仿游戏基准（Big Bench）。 Big Bench目前由204个任务组成，由132家机构的442位作者贡献。任务主题是多样的，从语言学，儿童发展，数学，常识性推理，生物学，物理学，社会偏见，软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号，Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为，跨越了数百万到数十亿个参数。此外，一个人类专家评估者团队执行了所有任务，以提供强大的基准。研究结果包括：模型性能和校准都随规模改善，但绝对的术语（以及与评估者的性能相比）；在模型类中的性能非常相似，尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分，而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标；社交偏见通常会随着含糊不清的环境而随着规模而增加，但这可以通过提示来改善。

translated by 谷歌翻译

Gender Bias in Word Embeddings: A Comprehensive Analysis of Frequency, Syntax, and Semantics

Aylin Caliskan , Pimparkar Parth Ajay , Tessa Charlesworth , Robert Wolfe , Mahzarin R. Banaji

分类：人工智能 | 自然语言处理 | 机器学习

2022-06-07

语言语料库中的统计规律将众所周知的社会偏见编码为单词嵌入。在这里，我们专注于性别，以全面分析在互联网语料库中训练的广泛使用的静态英语单词嵌入式（Glove 2014，FastText 2017）。使用单类单词嵌入关联测试，我们证明了性别偏见的广泛流行，这些偏见也显示出：（1）与男性与女性相关的单词频率；（b）与性别相关的单词中的言论部分；（c）与性别相关的单词中的语义类别；（d）性别相关的单词中的价，唤醒和优势。首先，就单词频率而言：我们发现，在词汇量中，有1000个最常见的单词与男性相比，有77％的人与男性相关，这是在英语世界的日常语言中直接证明男性默认的证据。其次，转向言论的部分：顶级男性相关的单词通常是动词（例如，战斗，压倒性），而顶级女性相关的单词通常是形容词和副词（例如，奉献，情感上）。嵌入中的性别偏见也渗透到言论部分。第三，对于语义类别：自下而上，对与每个性别相关的前1000个单词的群集分析。与男性相关的顶级概念包括大技术，工程，宗教，体育和暴力的角色和领域；相比之下，顶级女性相关的概念较少关注角色，包括女性特定的诽谤和性内容以及外观和厨房用语。第四，使用〜20,000个单词词典的人类评级，唤醒和主导地位，我们发现与男性相关的单词在唤醒和优势上较高，而与女性相关的单词在价上更高。

translated by 谷歌翻译

Stereoscopic Universal Perturbations across Different Architectures and Datasets

Zachary Berger , Parth Agrawal , Tian Yu Liu , Stefano Soatto , Alex Wong

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-12

我们研究了对差距估计任务的深层立体声匹配网络对抗图像对抗的影响。我们介绍了一种方法来制作一组扰动，当添加到数据集中的任何立体声图像对时，可以欺骗立体声网络，从而显着改变感知场景几何形状。我们的扰动图像是“通用”的，因为它们不仅损坏了它们在优化的数据集上的网络上的估计，而且还概括到不同数据集中不同架构的立体网络。我们在多个公共基准数据集中评估我们的方法，并显示我们的扰动可以将最先进的立体网络的D1错误（类似于愚蠢）增加1％至高达87％。我们调查扰动对估计场景几何的影响，并确定最脆弱的对象类。我们对左右图像之间的注册点激活的分析导致我们发现某些架构组件，即可变形卷积和明确匹配，可以增加对对手的鲁棒性。我们证明，通过简单地使用这些组件设计网络，可以将对手的效果降低到60.5％，这竞争于网络的稳健性与昂贵的对抗性数据增强进行了微调。

translated by 谷歌翻译

Memotion Analysis through the Lens of Joint Embedding

Nethra Gunti , Sathyanarayanan Ramamoorthy , Parth Patwa , Amitava Das

分类：机器学习 | 人工智能 | 自然语言处理 | 计算机视觉

2021-11-13

联合嵌入（JE）是将多模态数据编码为向量空间中的一种方法，其中文本保持为接地密钥，以及像这样的键锚定图像的其他模式。MEME通常是具有嵌入文本的图像。虽然，模因通常用于乐趣，但它们也可以用来传播仇恨和假信息。随着它在若干社交平台上不经产的繁多，这导致了对模因的自动分析成为一个广泛的研究主题。在本文中，我们通过联合嵌入式报告了对Memotion分析问题的初步实验。结果略有屈服于SOTA。

translated by 谷歌翻译